命名实体识别(ner)旨在标识在非结构化文本中的命名实体的提到,并将它们分类为预定义的命名实体类。尽管基于深度学习的预先训练的语言模型实现了良好的预测性能,但许多域特定的NERTASK仍然需要足够量的标记数据。主动学习(AL)是标签采集问题的一般框架,已用于NER任务,以最大限度地降低注释成本而不会牺牲模型性能。然而,令牌的严重不平衡的课程分布引入了设计有效的NER Querying方法的挑战。我们提出了al句子查询评估函数,这些函数更加关注可能的积极令牌,并评估基于句子和基于令牌的成本评估策略的这些提出的功能。我们还提出了更好的数据驱动的归一化方法来惩罚太长或太短的句子。我们在来自不同域的三个数据集上的实验表明,所提出的方法减少了带有常规方法的更好或可比预测性能的增注令牌的数量。
translated by 谷歌翻译